字符编码、Unicode原理、数据流压缩Zlib与Miniz的实现 | 您所在的位置:网站首页 › utf16 le be › 字符编码、Unicode原理、数据流压缩Zlib与Miniz的实现 |
号、数字、拉丁字母、⽇⽂假名、希腊字母、俄⽂字母、汉语拼⾳符号、汉语注⾳字母,共 7445 个图形字符。 字符编码 :把字符集中的字符编码为(映射)指定集合中的某⼀对象(例如:⽐特模式、⾃然数序列、电脉冲),以便⽂本在计算机中 存储和通过通信⽹络的传递。 字符集和字符编码的关系
: 1. 字符集是书写系统字母与符号的集合 2. 字符编码则是将字符映射为⼀特定的字节或字节序列,是⼀种规则。 通常特定的字符集采⽤特定的编码⽅式(即⼀种字符集对应⼀种字符编码(例如:ASCII、 IOS-8859-1、 GB2312、 GBK,都是 即表⽰了字符集⼜表⽰了对应的字符编码,但 Unicode 不是,它采⽤现代的模型)) 字符集编码的发展 单字节 -> 双字节 -> 多字节 单字节 ASCII(American Standard Code for Information Interchange),128 个字符,⽤ 7 位⼆进制表⽰(00000000-01111111 即 0x00-0x7F),EASCII (Extended ASCII),256 个字符,⽤ 8 位⼆进制表⽰(00000000-11111111 即 0x00-0xFF)。 双字节 当计算机传到了亚洲, 256 个码位就不够⽤了。于是乎继续扩⼤⼆维表,单字节改双字节, 16 位⼆进制数, 65536 个码位。在不同国 家和地区⼜出现了很多编码,⼤陆的 GB2312、港台的BIG5、⽇本的 Shift JIS 等等。 注意 65536 个码位 这种说法只是理想情况,由于双字节编码可以是变长的,也就是说同⼀个编码⾥⾯有些字符是单字节表⽰,有些 字符是双字节表⽰。这样做的好处是, ⼀⽅⾯ 可以兼容 ASCII ,另⼀⽅⾯可以 节省存储容量 , 代价就是会损失⼀部分码位。 多字节 |
CopyRight 2018-2019 实验室设备网 版权所有 |